NLP2024 デジタル・ヒューマニティーズ入門
北本朝展 先生(ROIS-DS人文学オープンデータ共同利用センター/国立情報学研究所) デジタル・ヒューマニティーズ(人文情報学)は,情報学と人文学の研究者が協働しながら,情報学的な手法やシステムを活用して人文学的な問いや謎に挑む研究分野である.人文学(言語学を含む)は何らかの形で「テキスト」を扱う研究が多いことから,テキストから情報を引き出すツールとしての自然言語処理への期待は高い.一方,人文学では多種多様な文化から生み出されるテキストを対象とするため,一般的な自然言語処理のアプローチではうまくいかないこともあり,どこが技術の使いどころになるかを見極めるセンスも重要になってくる.そこで本チュートリアルは,情報学的な手法を人文学的な問いに接続する研究事例や,研究に使えるデータセットやツールなどを紹介することで,自然言語処理の研究者がデジタル・ヒューマニティーズの研究を開始するきっかけとしたい. 人文学
空間、時間、テキスト
デジタルによる新しい目
これまで見えなかったものが見えるようになる
人間と機械が共に読む時代
(まだ)機械だけが読む時代ではない
精読と遠読
テキストの人文学アノテーション
画像の人文学アノテーションフレームワーク
IIIF対応サイト
Japan Search
Cultural Japan
画像を範囲選択して切り抜いてコレクションにできる
顔貌コレクション(顔コレ)
日本美術の絵巻物から顔だけを集めたコレクション
美術史研究支援
機械学習による顔検出
美術史と機械学習
絵画から匂いがしそうなオブジェクトを検出する
描かれていた部屋はどんな匂いだったのかという新しい視点
美術作品は良い匂いの部屋を描いているのか悪い部屋を描いているのかという新しい問いが立てられる
歴史ビッグデータ
GitHubリポジトリがある
東京駅のあたりは武家屋敷だった
武家屋敷が空地になって大きなビルができた
文書空間と現実空間のリンク
地図の話めっちゃするじゃんyuiseki.icon
歴史的地名データ
実は新潟県が一番村の名前が多い
かつて人口が日本一だったことがある
くずし字
中世の文献
英語なら読めるのに同じ時代でも日本語は読めない不思議
かつてはひらがなの表記が何種類もあった
1900年に日本語ひらがなの表記が統一された
過去の文献をいまのひらがなに書き起こす活動
多様なひらがなの情報が損失してしまいそうyuiseki.icon
物体検出をくずし字に応用
通常のOCRとは違う
通常のOCR
レイアウト解析→文字認識
文字認識→レイアウト解析
木版印刷
レイアウトが自由
マンガに通じるかもしれない
確かに!yuiseki.icon
kaggleくずし字コンペ
上位入賞したのは海外も多い
日本語やくずし字の知識がなくても開発可能
そのための前準備には情報学者と人文学者の協働が必要不可欠
「みを」
みをつくし
くずし字を現代の日本語として認識する
そあん
現代の日本語をくずし字に変換する
歴史的日本語(古文)大規模言語モデル
「つくし」
歴史的日本語テキストデータセットをオープンデータで公開